Seleccione idioma

Spanish

Down Icon

Seleccione país

England

Down Icon

La apuesta de Google por un "modelo mundial": construir la capa operativa de IA antes de que Microsoft capture la interfaz de usuario

La apuesta de Google por un "modelo mundial": construir la capa operativa de IA antes de que Microsoft capture la interfaz de usuario

Únase a nuestros boletines diarios y semanales para recibir las últimas novedades y contenido exclusivo sobre la cobertura líder en IA del sector. Más información.

Tras tres horas en el evento I/O 2025 de Google la semana pasada en Silicon Valley, quedó cada vez más claro: Google está concentrando sus formidables esfuerzos en IA —presentados bajo la marca Gemini, pero que abarcan una amplia gama de arquitecturas de modelos e investigaciones subyacentes— con una concentración total. Está lanzando una gran cantidad de innovaciones y tecnologías en torno a ella, integrándolas luego en sus productos a un ritmo vertiginoso.

Más allá de las características que acaparan titulares, Google planteó una ambición más audaz: un sistema operativo para la era de la IA —no del tipo que arranca desde disco, sino una capa lógica que cualquier aplicación pudiera aprovechar—, un "modelo mundial" diseñado para impulsar un asistente universal que comprende nuestro entorno físico, razona y actúa en nuestro nombre. Es una ofensiva estratégica que muchos observadores podrían haber pasado por alto entre la confusión de características.

Por un lado, se trata de una estrategia arriesgada para superar a competidores consolidados. Pero, por otro lado, mientras Google invierte miles de millones en este proyecto ambicioso, se plantea una pregunta crucial: ¿Podrá la brillantez de Google en investigación y tecnología de IA traducirse en productos más rápidamente que sus rivales, cuya ventaja tiene su propia brillantez: integrar la IA en productos de acceso inmediato y comercialmente potentes ? ¿Podrá Google superar a una Microsoft con una estrategia muy específica, contrarrestar los sueños verticales de hardware de OpenAI y, fundamentalmente, mantener vivo su imperio de las búsquedas en las corrientes disruptivas de la IA?

Google ya está persiguiendo este futuro a una escala vertiginosa. Pichai dijo a I/O que la compañía ahora procesa 480 billones de tokens al mes, 50 veces más que hace un año, y casi 5 veces más que los 100 billones de tokens al mes que, según Satya Nadella de Microsoft, procesaba su compañía. Este impulso también se refleja en la adopción por parte de los desarrolladores, con Pichai diciendo que más de 7 millones de desarrolladores ahora están construyendo con la API de Gemini, lo que representa un aumento de cinco veces desde el último I/O, mientras que el uso de Gemini en Vertex AI se ha disparado más de 40 veces. Y los costos unitarios siguen cayendo a medida que los modelos Gemini 2.5 y el Ironwood TPU exprimen más el rendimiento de cada vatio y dólar. AI Mode (que se está implementando en los EE. UU.) y AI Overviews (que ya atiende a 1.500 millones de usuarios mensualmente) son los bancos de pruebas en vivo donde Google ajusta la latencia, la calidad y los futuros formatos de anuncios a medida que cambia la búsqueda hacia una era de IA primero.

Fuente: Google I/O 20025

La apuesta de Google por lo que denomina " modelo mundial" (una IA que pretende dotar de un profundo conocimiento de las dinámicas del mundo real) y, con ella, la visión de un asistente universal, impulsado por Google y no por otras empresas, genera otra gran tensión: ¿cuánto control pretende Google sobre este asistente omnisciente, basado en su joya de la corona, la búsqueda? ¿Pretende aprovecharlo primero para sí mismo, para salvar su negocio de búsquedas de 200 000 millones de dólares, que depende de ser el punto de partida y evitar la disrupción de OpenAI? ¿O abrirá Google por completo su IA fundacional a otros desarrolladores y empresas, otro segmento que representa una parte significativa de su negocio y que involucra a más de 20 millones de desarrolladores, más que cualquier otra empresa ?

En ocasiones, Google no ha llegado a un enfoque radical en la creación de estos productos básicos para otros con la misma claridad que su rival, Microsoft. Esto se debe a que reserva gran parte de la funcionalidad básica para su preciado motor de búsqueda. Dicho esto, Google está realizando importantes esfuerzos para proporcionar acceso a los desarrolladores siempre que sea posible. Un ejemplo revelador es Project Mariner . Google podría haber integrado las funciones de automatización del navegador directamente en Chrome, ofreciendo a los consumidores una ventana emergente inmediata bajo su control total. Sin embargo, Google continuó diciendo que las capacidades de uso informático de Mariner se lanzarían a través de la API de Gemini de forma más amplia "este verano". Esto indica que cualquier rival que desee una automatización comparable tendrá acceso externo. De hecho, Google afirmó que sus socios Automation Anywhere y UiPath ya estaban desarrollando con él.

La articulación más clara del gran diseño de Google provino de Demis Hassabis, director ejecutivo de Google DeepMind, durante la conferencia de I/O. Afirmó que Google sigue redoblando sus esfuerzos hacia la inteligencia artificial general (IAG). Si bien Gemini ya era el mejor modelo multimodal, explicó Hassabis, Google está trabajando arduamente para ampliarlo y convertirlo en lo que llamamos un modelo global. Se trata de un modelo que puede crear planes e imaginar nuevas experiencias simulando aspectos del mundo, tal como lo hace el cerebro.

Este concepto de "modelo de mundo", tal como lo articuló Hassabis, trata sobre la creación de una IA que aprenda los principios subyacentes del funcionamiento del mundo: simular causa y efecto, comprender la física intuitiva y, en última instancia, aprender mediante la observación, de forma similar a como lo hace un humano. Un indicador temprano, quizás fácilmente pasado por alto por quienes no están familiarizados con la investigación fundamental en IA, pero significativo en esta dirección, es el trabajo de Google DeepMind en modelos como Genie 2. Esta investigación muestra cómo generar entornos de juego interactivos bidimensionales y mundos jugables a partir de diversas indicaciones, como imágenes o texto. Ofrece un vistazo a una IA capaz de simular y comprender sistemas dinámicos.

Hassabis ha desarrollado este concepto de "modelo mundial" y su manifestación como "asistente universal de IA" en varias charlas desde finales de 2024, y se presentó en I/O de forma muy completa, con el CEO Sundar Pichai y el líder de Gemini, Josh Woodward, haciendo eco de la visión en el mismo escenario. (Mientras que otros líderes en IA, como Satya Nadella de Microsoft, Sam Altman de OpenAI y Elon Musk de xAI, han debatido sobre "modelos mundiales", Google vincula de forma única y exhaustiva este concepto fundamental con su objetivo estratégico a corto plazo: el "asistente universal de IA").

Al hablar sobre la aplicación Gemini, el equivalente de Google a ChatGPT de OpenAI, Hassabis declaró: “Esta es nuestra visión definitiva para la aplicación Gemini: transformarla en un asistente de IA universal, una IA personal, proactiva y poderosa, y uno de nuestros hitos clave en el camino hacia la IAG”.

Esta visión se materializó mediante demostraciones de E/S. Google presentó una nueva aplicación llamada Flow —un lienzo cinematográfico de arrastrar y soltar que conserva la consistencia de los personajes y la cámara— que aprovecha Veo 3, el nuevo modelo que superpone video con reconocimiento de física y audio nativo. Para Hassabis, esta combinación es una prueba temprana de que «la comprensión del modelo del mundo ya se está filtrando a las herramientas creativas». En robótica, destacó por separado el modelo perfeccionado de Gemini Robotics, argumentando que «los sistemas de IA necesitarán modelos del mundo para funcionar eficazmente».

Español El director ejecutivo Sundar Pichai reforzó esto , citando el Proyecto Astra que "explora las capacidades futuras de un asistente de IA universal que puede comprender el mundo que lo rodea". Estas capacidades de Astra, como la comprensión de video en vivo y el uso compartido de pantalla, ahora están integradas en Gemini Live . Josh Woodward, quien dirige Google Labs y la aplicación Gemini, detalló el objetivo de la aplicación de ser el "asistente de IA más personal, proactivo y poderoso". Mostró cómo el "contexto personal" (conectando el historial de búsqueda y pronto Gmail/Calendar) permite a Gemini anticipar las necesidades, como proporcionar cuestionarios de exámenes personalizados o videos explicativos personalizados utilizando analogías que un usuario entiende (por ejemplo, la termodinámica explicada a través del ciclismo). Esto, enfatizó Woodward, es "hacia donde nos dirigimos con Gemini", habilitado por el modelo Gemini 2.5 Pro que permite a los usuarios "pensar en las cosas para que existan".

Las nuevas herramientas para desarrolladores presentadas en I/O son componentes fundamentales. Gemini 2.5 Pro con "Deep Think" y la hipereficiente versión 2.5 Flash (ahora con audio nativo y contexto URL basado en la API de Gemini ) conforman la inteligencia central. Google también presentó discretamente Gemini Diffusion , lo que indica su disposición a ir más allá de las plataformas Transformer puras cuando esto ofrezca mayor eficiencia o latencia. Google está integrando estas capacidades en un completo conjunto de herramientas: AI Studio y Firebase Studio son puntos de partida fundamentales para los desarrolladores, mientras que Vertex AI sigue siendo la rampa de acceso empresarial.

Esta colosal iniciativa está impulsada por las enormes capacidades de I+D de Google, pero también por una necesidad estratégica. En el panorama del software empresarial, Microsoft tiene una posición formidable, según declaró a VentureBeat un director de IA de una empresa de Fortune 500, asegurando a los clientes su total compromiso con las herramientas Copilot . El ejecutivo solicitó el anonimato debido a la sensibilidad de comentar sobre la intensa competencia entre los proveedores de IA en la nube. El dominio de Microsoft en las aplicaciones de productividad de Office 365 será extremadamente difícil de desbancar mediante la competencia directa característica por característica, afirmó el ejecutivo.

El camino de Google hacia un posible liderazgo —su estrategia para esquivar el dominio empresarial de Microsoft— reside en redefinir el panorama con un paradigma de interacción nativo de IA fundamentalmente superior. Si Google ofrece un asistente de IA verdaderamente universal, impulsado por un modelo global integral, podría convertirse en la nueva capa indispensable —el sistema operativo eficaz— para la interacción de usuarios y empresas con la tecnología. Como Pichai reflexionó con el podcaster David Friedberg poco antes del I/O, eso significa conciencia del entorno físico. Por eso, las gafas de RA, dijo Pichai, « quizás ese sea el siguiente paso… eso es lo que me entusiasma ».

Pero esta ofensiva de IA es una carrera contrarreloj. En primer lugar, el motor de anuncios de búsqueda de 200 000 millones de dólares que financia Google debe protegerse incluso durante su reinvención. La sentencia de monopolización del Departamento de Justicia de EE. UU. aún pesa sobre Google ; la desinversión de Chrome se ha planteado como la principal solución. Y en Europa, la Ley de Mercados Digitales, así como las emergentes demandas por responsabilidad de derechos de autor, podrían limitar la libertad con la que Gemini rastrea o muestra la web abierta.

Finalmente, la velocidad de ejecución importa. Google ha sido criticado por moverse lentamente en los últimos años. Pero en los últimos 12 meses, se hizo evidente que Google había estado trabajando pacientemente en múltiples frentes y que había dado sus frutos con un crecimiento más rápido que sus rivales . El desafío de navegar con éxito esta transición de IA a escala masiva es inmenso, como lo demuestra el reciente informe de Bloomberg que detalla cómo incluso un titán tecnológico como Apple está lidiando con reveses significativos y reorganizaciones internas en sus iniciativas de IA. Esta dificultad que afecta a toda la industria subraya lo mucho que está en juego para todos los actores. Si bien Pichai carece de la espectacularidad de algunos rivales, la larga lista de testimonios de clientes empresariales que Google presentó en su evento Cloud Next el mes pasado (sobre implementaciones reales de IA) subraya a un líder que deja que la cadencia sostenida del producto y las victorias empresariales hablen por sí solas.

Al mismo tiempo, la competencia enfocada avanza. La marcha empresarial de Microsoft continúa. Su conferencia Build presentó Microsoft 365 Copilot como la "IU para IA", Azure AI Foundry como una "línea de producción para inteligencia" y Copilot Studio para la creación sofisticada de agentes, con impresionantes demostraciones de flujos de trabajo de bajo código ( Microsoft Build Keynote, Miti Joshi a las 22:52, Kadesha Kerr a las 51:26 ). La visión de "web abierta y agente" de Nadella ( NLWeb, MCP ) ofrece a las empresas una vía pragmática para la adopción de la IA, que permite la integración selectiva de tecnología de IA , ya sea de Google o de otro competidor, dentro de un marco centrado en Microsoft.

OpenAI, mientras tanto, está muy por delante con el alcance del consumidor de su producto ChatGPT, con referencias recientes de la compañía a tener 600 millones de usuarios mensuales y 800 millones de usuarios semanales. Esto se compara con los 400 millones de usuarios mensuales de la aplicación Gemini. Y en diciembre, OpenAI lanzó una oferta de búsqueda completa y, según se informa, está planeando una oferta publicitaria, lo que plantea lo que podría ser una amenaza existencial para el modelo de búsqueda de Google. Más allá de hacer modelos líderes, OpenAI está haciendo una provocativa jugada vertical con su supuesta adquisición de IO de Jony Ive por $6.5 mil millones , prometiendo ir "más allá de estos productos heredados" e insinuando que estaba lanzando un producto de hardware que intentaría interrumpir la IA al igual que el iPhone interrumpió los dispositivos móviles. Si bien todo esto puede afectar potencialmente las ambiciones de Google en materia de informática personal de próxima generación, también es cierto que la capacidad de OpenAI de construir un foso profundo como lo hizo Apple con el iPhone puede ser limitada en una era de la IA cada vez más definida por protocolos abiertos (como MCP) y una intercambiabilidad de modelos más fácil.

Internamente, Google gestiona su vasto ecosistema. Como explicó Jeanine Banks, vicepresidenta de Developer X de Google, a VentureBeat, atender a la diversa comunidad global de desarrolladores de Google implica que "no hay una solución universal", lo que da lugar a una amplia, aunque a veces compleja, gama de herramientas: AI Studio, Vertex AI, Firebase Studio y numerosas API.

Mientras tanto, Amazon está presionando desde otro flanco: Bedrock ya alberga los modelos Anthropic, Meta, Mistral y Cohere, lo que ofrece a los clientes de AWS una opción predeterminada pragmática y multimodelo.

La audaz apuesta de Google por construir la inteligencia fundamental para la era de la IA presenta a los líderes empresariales oportunidades atractivas y consideraciones críticas:

  1. Muévete ahora o modernízalo más tarde: Quedarse atrás un ciclo de lanzamiento podría obligar a realizar costosas reescrituras cuando las interfaces que priorizan al asistente se vuelvan predeterminadas.
  2. Aproveche el potencial revolucionario: para las organizaciones que buscan adoptar la IA más poderosa, aprovechar la investigación del "modelo mundial" de Google, las capacidades multimodales (como Veo 3 e Imagen 4 exhibidas por Woodward en I/O) y la trayectoria de AGI prometida por Google ofrece un camino hacia una innovación potencialmente significativa.
  3. Prepárese para un nuevo paradigma de interacción: El éxito del "asistente universal" de Google implicaría una nueva interfaz principal para servicios y datos. Las empresas deberían diseñar estrategias de integración mediante API y marcos de trabajo de agentes para una entrega adaptada al contexto.
  4. Considere el largo plazo (y sus riesgos): Alinearse con la visión de Google es un compromiso a largo plazo. El "modelo global" completo y la IA general son horizontes potencialmente lejanos. Los responsables de la toma de decisiones deben sopesar esto con las necesidades inmediatas y las complejidades de la plataforma.
  5. Contraste con alternativas enfocadas: Las soluciones pragmáticas de Microsoft ofrecen productividad empresarial tangible ahora. La IA de hardware disruptiva de OpenAI/IO presenta otra vía distinta. Una estrategia diversificada, que aproveche lo mejor de cada una, suele tener sentido, especialmente con la creciente flexibilidad que ofrece la web agencial.

Estas decisiones complejas y las estrategias de adopción de IA en el mundo real serán centrales en los debates de Transform 2025 de VentureBeat el próximo mes. Este evento independiente líder reúne a responsables de la toma de decisiones técnicas empresariales con líderes de empresas pioneras para compartir experiencias de primera mano sobre la elección de plataformas (Google, Microsoft y otras) y la gestión de la implementación de IA, todo ello organizado por el equipo editorial de VentureBeat. Dado que el aforo es limitado, se recomienda registrarse con antelación.

El espectáculo I/O de Google fue una declaración contundente: Google indicó su intención de diseñar y operar la inteligencia fundamental del futuro impulsado por la IA. Su búsqueda de un "modelo mundial" y sus ambiciones en materia de IA general buscan redefinir la informática, superar a la competencia y consolidar su dominio. La audacia es convincente; la promesa tecnológica, inmensa.

La gran pregunta es la ejecución y el timing. ¿Puede Google innovar e integrar sus vastas tecnologías en una experiencia cohesiva y atractiva más rápido que sus rivales para consolidar sus posiciones? ¿Puede hacerlo mientras transforma las búsquedas y aborda los desafíos regulatorios? ¿Y puede hacerlo con un enfoque tan amplio tanto en los consumidores como en las empresas, una agenda posiblemente mucho más amplia que la de sus principales competidores?

Los próximos años serán cruciales. Si Google cumple con su visión de "modelo mundial", podría marcar el comienzo de una era de inteligencia ambiental personalizada, convirtiéndose en la nueva capa operativa de nuestra vida digital. De lo contrario, su gran ambición podría ser la advertencia de un gigante que lo intenta todo, solo para encontrarse con un futuro definido por otros que apuntaron con mayor precisión y rapidez.

Perspectivas diarias sobre casos de uso empresarial con VB Daily

Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Te ofrecemos información exclusiva sobre lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, para que puedas compartir tus conocimientos y maximizar el retorno de la inversión.

Lea nuestra Política de Privacidad

Gracias por suscribirte. Consulta más boletines de VB aquí .

Se produjo un error.

venturebeat

venturebeat

Noticias similares

Todas las noticias
Animated ArrowAnimated ArrowAnimated Arrow